simd

国产AI芯片三年,一些思考

刚好最近有时间,聊聊这三年在国产芯片上的工作经历。一方面是记录一下这三年做的一些事,一方面是基于这三年的工作经验引发的一些思考。我是在22年年中的时候离开一家大公司去了一家小公司,主要是做高性能计算,针对各种硬件做性能优化。这三年陆陆续续地接触了几款国产芯片,

芯片 cuda decode blas simd 2025-08-07 15:21  8

又快又精准!另辟蹊径的批量KV查询系统优化实践

在现代推荐系统中,需要以尽可能低的延迟在海量的数据中快速计算出与用户最相关的top-N。而其中能够管理海量数据并支持高速批量查询的存储系统是最重要的组件之一。如下图所示,无论是在召回、排序阶段,还是在离线模型训练期间,更多的特征和更快的计算通常会带来更好的推荐

哈希表 kv kv查询 批量kv simd 2025-06-11 09:51  11